夫妻通常在一起管理慢性疾病,管理层对患者及其浪漫伴侣造成了情感上的伤害。因此,认识到日常生活中每个伴侣的情绪可以提供对他们在慢性疾病管理中的情感健康的见解。当前,评估每个伴侣的情绪的过程是手动,时间密集和昂贵的。尽管夫妻之间存在着关于情感识别的作品,但这些作品都没有使用夫妻在日常生活中的互动中收集的数据。在这项工作中,我们收集了85小时(1,021个5分钟样本)现实世界多模式智能手表传感器数据(语音,心率,加速度计和陀螺仪)和自我报告的情绪数据(n = 612)(13个伙伴)(13)夫妻)在日常生活中管理2型糖尿病。我们提取了生理,运动,声学和语言特征,以及训练有素的机器学习模型(支持向量机和随机森林),以识别每个伴侣的自我报告的情绪(价和唤醒)。我们最佳模型的结果比偶然的结果更好,唤醒和价值分别为63.8%和78.1%。这项工作有助于建立自动情绪识别系统,最终使伙伴能够监视他们在日常生活中的情绪,并能够提供干预措施以改善其情感幸福感。
translated by 谷歌翻译
Retrieval-augmented in-context learning has emerged as a powerful approach for addressing knowledge-intensive tasks using frozen language models (LM) and retrieval models (RM). Existing work has combined these in simple "retrieve-then-read" pipelines in which the RM retrieves passages that are inserted into the LM prompt. To begin to fully realize the potential of frozen LMs and RMs, we propose Demonstrate-Search-Predict (DSP), a framework that relies on passing natural language texts in sophisticated pipelines between an LM and an RM. DSP can express high-level programs that bootstrap pipeline-aware demonstrations, search for relevant passages, and generate grounded predictions, systematically breaking down problems into small transformations that the LM and RM can handle more reliably. We have written novel DSP programs for answering questions in open-domain, multi-hop, and conversational settings, establishing in early evaluations new state-of-the-art in-context learning results and delivering 37-200%, 8-40%, and 80-290% relative gains against vanilla LMs, a standard retrieve-then-read pipeline, and a contemporaneous self-ask pipeline, respectively.
translated by 谷歌翻译
Neural information retrieval (IR) systems have progressed rapidly in recent years, in large part due to the release of publicly available benchmarking tasks. Unfortunately, some dimensions of this progress are illusory: the majority of the popular IR benchmarks today focus exclusively on downstream task accuracy and thus conceal the costs incurred by systems that trade away efficiency for quality. Latency, hardware cost, and other efficiency considerations are paramount to the deployment of IR systems in user-facing settings. We propose that IR benchmarks structure their evaluation methodology to include not only metrics of accuracy, but also efficiency considerations such as a query latency and the corresponding cost budget for a reproducible hardware setting. For the popular IR benchmarks MS MARCO and XOR-TyDi, we show how the best choice of IR system varies according to how these efficiency considerations are chosen and weighed. We hope that future benchmarks will adopt these guidelines toward more holistic IR evaluation.
translated by 谷歌翻译
最近的研究揭示了NLP数据和模型中的不良偏见。但是,这些努力的重点是西方的社会差异,并且无法直接携带其他地质文化背景。在本文中,我们关注印度背景下的NLP公平。我们首先简要说明印度的社会差异斧头。我们为印度背景下的公平评估建立资源,并利用它们来证明沿着某些轴的预测偏见。然后,我们深入研究了地区和宗教的社会刻板印象,证明了其在Corpora&Models中的普遍性。最后,我们概述了一个整体研究议程,以重新定义印度背景的NLP公平研究,考虑印度社会背景,弥合能力,资源和适应印度文化价值的技术差距。尽管我们在这里专注于“印度”,但可以在其他地理文化背景下进行重新连接化。
translated by 谷歌翻译
我们引入了来自多个机器人手的对象的神经隐式表示。多个机器人手之间的不同抓地力被编码为共享的潜在空间。学会了每个潜在矢量以两个3D形状的签名距离函数来解码对象的3D形状和机器人手的3D形状。此外,学会了潜在空间中的距离度量,以保留不同机器人手之间的graSps之间的相似性,其中根据机器人手的接触区域定义了grasps的相似性。该属性使我们能够在包括人手在内的不同抓地力之间转移抓地力,并且GRASP转移有可能在机器人之间分享抓地力,并使机器人能够从人类那里学习掌握技能。此外,我们隐式表示中对象和grasps的编码符号距离函数可用于6D对象姿势估计,并从部分点云中掌握触点优化,这可以在现实世界中启用机器人抓握。
translated by 谷歌翻译
大型语言模型已被证明可以使用少量学习来实现各种自然语言任务的出色表现,这大大减少了将模型调整到特定应用程序所需的特定任务培训示例的数量。为了进一步了解量表对少量学习的影响,我们培训了一个5400亿个参数,密集激活的变压器语言模型,我们称之为“途径”语言模型棕榈。我们使用Pathways在6144 TPU V4芯片上训练了Palm,这是一种新的ML系统,可在多个TPU POD上进行高效的训练。我们通过在数百种语言理解和产生基准的基准方面实现最先进的学习结果来证明扩展的持续好处。在这些任务中,Palm 540B实现了突破性的表现,在一系列多步推理任务上表现出色,超过了最新的最新表现,并且在最近发布的Big Benchmark上表现优于平均人类表现。大量的大型基础任务显示出与模型量表的不连续改进,这意味着当我们扩展到最大模型时,性能急剧增加。 Palm在多语言任务和源代码生成方面也具有很强的功能,我们在各种基准测试中证明了这一点。我们还提供了有关偏见和毒性的全面分析,并研究了训练数据记忆的程度,相对于模型量表。最后,我们讨论与大语言模型有关的道德考虑,并讨论潜在的缓解策略。
translated by 谷歌翻译
目前,大多数社会机器人通过传感器与周围环境和人类相互作用,这些传感器是机器人的组成部分,这限制了传感器,人机相互作用和互换性的可用性。在许多应用中需要一种适合许多机器人的可穿戴传感器衣服。本文介绍了一个经济实惠的可穿戴传感器背心,以及带有物联网(物联网)的开源软件架构,用于社会人形机器人。背心由触摸,温度,手势,距离,视觉传感器和无线通信模块组成。 IOT功能允许机器人与人类和互联网一起与人类交互。设计的体系结构适用于任何具有通用图形处理单元(GPGPU),I2C / SPI总线,Internet连接和机器人操作系统(ROS)的任何社交机器人。此架构的模块化设计使开发人员能够轻松地添加/删除/更新复杂行为。所提出的软件架构提供IOT技术,GPGPU节点,I2C和SPI总线管理器,视听交互节点(语音到文本,文本到语音和图像理解),以及行为节点和其他节点之间的隔离。所提出的IOT解决方案包括机器人中的相关节点,RESTful Web服务和用户界面。我们使用HTTP协议作为与Internet的社会机器人双向通信的手段。开发人员可以在C,C ++和Python编程语言中轻松编辑或添加节点。我们的架构可用于为社会人形机器人设计更复杂的行为。
translated by 谷歌翻译
人类注释在机器学习(ML)研究和开发中发挥着至关重要的作用。然而,正在建立ML数据集的过程和决策周围的道德考虑并没有接近足够的重视。在本文中,我们调查了一系列文献,这些文献提供了对众群数据集注释的道德考虑的洞察。我们综合这些见解,并沿着两层奠定了这个空间中的挑战:(1)注释者是谁,并且注释者的生活经验如何影响他们的注释,以及注释器与众群平台之间的关系那么这种关系都为他们提供了什么。最后,我们在ML数据流水线的各个阶段提出了一个具体的建议和考虑因素,以ML数据流水线的各个阶段:任务制定,选择注释,平台和基础架构选择,数据集分析和评估以及数据集文档和发布。
translated by 谷歌翻译
机器学习中的测试实践(ML)社区以评估学习模型的预测性能为中心,通常从与训练数据集相同的分发绘制。虽然ML社区中最近的鲁棒性和公平测试的工作指出了对分布转变进行测试的重要性,但这些努力还侧重于估计模型对参考数据集/分布错误的可能性。我们认为,这种测试的观点激发了研究人员和开发人员来研究其他鲁棒性失败的来源,例如角落案例可能具有严重的不良影响。我们在软件工程测试中绘制了几十年的工作,专注于评估软件系统,以防止各种压力条件,包括角落案例,而不是仅关注平均案例行为。最后,我们提出了一系列建议,以扩大机器学习测试对严格的实践。
translated by 谷歌翻译
神经信息检索(IR)具有极大的搜索和其他知识密集型语言任务。虽然许多神经IR方法将查询和文档编码为单载表示,但后期交互模型在每个令牌的粒度下产生多向量表示,并将相关性建模分解为可伸缩的令牌级计算。这种分解已被证明可以使迟到的交互更有效,但它以幅度的数量级膨胀这些模型的空间占地面积。在这项工作中,我们介绍了Colbertv2,这是一种猎犬,其与去噪的监督策略相结合的侵略性的残余压缩机制,同时提高晚期互动的质量和空间足迹。我们在各种基准中评估COLBertv2,在培训域内和外部建立最先进的质量,同时减少了晚期互动模型的空间足迹5-8 $ \ times $。
translated by 谷歌翻译